Modellkollaps – wie synthetische Daten KI killen können

Generative KI ist nur so gut wie ihre Trainingsdaten. Das Internet ist laut einer Studie dank KI aber bald zu schlecht für KI.

65

(Bild: photoschmidt/ Shutterstock.com)

26.07.2024, 12:40 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

Laut einer Studie, die im Wissenschaftsmagazin Nature veröffentlicht wurde, droht KI der Kollaps. Grund sind die Trainingsdaten, die durch KI selbst unbrauchbar werden. KI generiert diese Trainingsdaten, die sich immer stärker gleichen, bis schließlich nichts Sinnvolles mehr entsteht. Dabei rücken die Wissenschaftler das Internet als Quell synthetischer Daten in den Vordergrund und diskutieren die absichtliche Vergiftung der Daten.

Große Sprachmodelle, in ähnlicher Weise auch Bildgeneratoren, lernen aus den ihnen zur Verfügung gestellten Trainingsdaten. Sie leiten daraus – sehr kurz gefasst – Wahrscheinlichkeiten ab. Antworten bestehen also aus dem, was am wahrscheinlichsten auf die Frage passt, beziehungsweise einer Abfolge an Wahrscheinlichkeiten, die die Sätze bilden.

In einem Kommentar zu der aktuellen Studie wird in Nature das Problem des Modellkollapses, das sich daraus ergibt, anhand von Hunden erklärt. Zunächst gibt es verschiedene Hunderassen. Golden Retriever tauchen in den Trainingsdaten etwas häufiger auf als andere Hunde. Also zeigt die KI in einem ersten Schritt bei der Frage nach einem Hund auch häufiger einen Golden Retriever. Bei der Weiterentwicklung von KI nutzt diese nun auch die Daten, aus dem ersten Schritt – nimmt also als Trainingsmaterial jenes, das bereits noch häufiger Golden Retriever zeigt. Daraus ergibt sich, dass irgendwann nur noch Golden Retriever von der KI als Hunde gesehen werden. Die Autoren der Studie gehen davon aus, dass darauf ein tatsächlicher Zusammenbruch der Modelle folgt.

Dass sogenannte synthetische Daten, also solche, die von einer KI erstellt wurden, problematisch werden können, ist bereits häufiger beschrieben worden. Sie sind repetitiv und drohen, das früher gelernte Wissen, also die verschiedenen Hunde, zu überschreiben. Der Modellkollaps wird auch oft mit der Schlange Ouroboros aus der Mystik vergleichen: Sie frisst sich im Kreis immer weiter selbst auf.

Lesen Sie auch

KI-Training mit synthetischen Daten: "Das Internet kommt ans Fördermaximum"

In Nature schreiben die Autoren, dass das Internet von solchen synthetischen Daten geflutet wird. Dass die Inhalte KI-generiert sind, steht jedoch nicht dran. Sie vergleichen das Problem mit den Versuchen, Social Media und Suchmaschinen mit schlechten Inhalten, beispielsweise von Bot-Farmen, zu infiltrieren. Das sei jedoch deutlich besser zu handhaben. "Große Sprachmodelle müssen darauf trainiert sein, auch Ergebnisse mit geringerer Wahrscheinlichkeit zu erstellen." Sie seien für das Verständnis komplexer Systeme entscheidend.

Es wird demnach sehr bald keine Option mehr für KI-Anbieter sein, frei verfügbare Daten aus dem Internet zu nutzen – wie sie es bisher tun konnten. Abgesehen von den aufkommenden Reglementierungen von Webseitenbetreibern, die vermehrt die Crawler ausschließen.

Daten sind nicht unendlich

Die vorhandenen Daten haben jedoch ein Limit. Wissenschaftler sprechen auch von einem Informationsfördermaximum. Gleichzeitig versuchen KI-Anbieter ihre Modelle immer weiter zu skalieren, also mit immer mehr Daten zu trainieren. Manche Wissenschaftler sehen darin sogar die Möglichkeit, eine Artificial General Intelligence (AGI) zu erschaffen. Die meisten Forscher sehen dieses Vorhaben jedoch kritisch – sie glauben nicht, dass alleine durch Skalieren Fähigkeiten geschaffen werden können, wie logisches Denken.

Zum Skalieren bedarf es nun jedoch mehr Daten. Die können nach dem Peak nur synthetisch hergestellt werden. Vorteil wäre, dass weniger Clickworker auf der Welt Material sichten, deklarieren und aussortieren müssten, das nicht in die Modelle fließen soll – die Menschen, die diese Aufgabe machen, jedoch stark psychisch belasten.